置信区间简明介绍

作者:Ruben Geert van den Berg,出自Statistics A-Z

置信区间 (Confidence Interval, CI) 是一个数值范围,该范围以给定的概率包含某个参数。假设我们从一个包含100,000人的总体中抽取了一个包含200人的样本。样本数据显示相关性为0.41,且该相关性的 95% 置信区间为 0.29 到 0.52。这意味着:

  • 数值范围 0.29 到 0.52
  • 95% 的概率
  • 包含我们想要了解的 参数 —— 整个总体的相关性。

简而言之,置信区间告诉我们_样本_相关性与我们所求的_总体_相关性可能相差多少。

置信区间 - 示例

El Hierro 是加那利群岛中最小的岛屿,拥有 8,077 名 18 岁及以上的居民。一位科学家想了解他们的平均年收入。他抽取了一个 N = 100 的样本。下表显示了他的发现。

置信区间描述性统计

基于这 100 人的数据,他得出结论,所有 8,077 名居民的平均年收入可能在 25,630 美元到 32,052 美元之间。这是如何计算出来的呢?

置信区间 - 原理

假设税务机关可以访问_所有_ 8,077 名居民的年收入。下表显示了一些描述性统计信息。

置信区间总体参数

现在,一位科学家从这些人中抽取 100 人的样本,可以计算出一个样本平均收入。这个样本平均值可能与 32,383 美元的总体平均值略有不同。另一位科学家也可能抽取 100 人的样本,并得出_另一个_不同的平均值。依此类推:如果我们抽取 100 个不同的样本,我们可能会发现 100 个不同的平均值。简而言之,样本平均值在_样本之间_波动。那么,它们波动_多少_呢?这由样本平均值在样本之间的标准差表示,称为平均值的标准误差 (Standard Error, SE)。SE 的计算公式为:

\[SE = \frac{\sigma}{\sqrt{N}}\]

因此,对于我们的数据,它将是:

\[SE = \frac{$22,874}{\sqrt{100}} = $2,287.\]

没错。现在,统计学家还发现了样本平均值的精确频率分布:平均值的抽样分布 (Sampling Distribution)。对于我们的数据,如下图所示。

置信区间总体参数

我们的图表告诉我们,95% 的样本的平均值将在大约 27,808 美元到 36,958 美元之间。这基本上是 平均值 ± 2SE

  • 下限约为 32,383 美元 - 2 · 2,287 美元 = 27,808 美元,并且
  • 上限约为 32,383 美元 + 2 · 2,287 美元 = 36,958 美元。

然而,在实践中,我们通常_不_知道总体平均值。因此,我们从样本数据中估计它。但是样本平均值与其总体对应值可能相差多少呢?好吧,我们刚刚看到,样本平均值有 95% 的概率落在总体平均值的 ± 2SE 范围内。

现在,我们不知道 SE,因为它取决于(未知的)总体标准差。但是,我们可以从样本标准差估计 SE。通过这样做,大多数样本将得出大致正确的 SE。因此,平均值落在 ± 2SE 范围内的 95% 的样本_通常_具有包含总体平均值的置信区间,如下图所示。

置信区间 - 图示

置信区间平均值 抽样分布和置信区间。请注意,样本 3 的区间包含总体平均值 μ。这适用于 5% 的 CI。

现在,平均值在 ±2SE 范围内的样本可能具有_不_包含总体平均值的置信区间。如果它低估了总体标准差,则可能发生这种情况。也可能发生相反的情况。

但是,样本标准差是一个无偏估计量:_平均而言_它是完全正确的。因此,对于_所有_样本,恰好 95% 的 95% 置信区间包含它们估计的参数。正如承诺的那样。

置信区间 - 基本属性

好的,所以置信区间基本上是参数(例如总体相关性、平均值或比例)的可能值范围。因此,_更宽_的置信区间表示对这些参数的_不太精确_的估计。

三个因素决定了置信区间的宽度。在其他条件相同的情况下:

  • 较低的置信水平导致较小的区间:90% 的 CI 小于 95% 的 CI,而 95% 的 CI 小于 99% 的 CI。这里的权衡是较小的区间不太可能包含我们正在寻找的参数:90% 对 95% 或 99%。更高的精度,更低的置信度,反之亦然。
  • 更大的样本量导致更小的 CI。但是,CI 的宽度与样本量的_平方根_线性相关。因此,非常大的样本对于获得精确的估计效率不高。
  • 较小的总体 SD导致更小的 CI。但是,这些不在研究人员的控制范围内。

置信区间 vs. 统计显著性

如果两者都可用,优先选择置信区间。为什么?嗯,置信区间提供的与统计显著性 (Statistical Significance)相同——以及更多——的信息。一些例子:

  • 独立平均值之间差异的 90% 置信区间从 -2.3 到 6.4。由于它包含零,因此这些平均值在 α 0.90 时没有显着差异。无需进一步对这些数据进行独立样本 t 检验 (Independent Samples T-Test)。我们已经知道结果。
  • 对于我们的示例,95% 的置信区间从 25,630 美元到 32,052 美元。这使得单样本 t 检验 (One Sample T-Test) 毫无用处:我们已经知道此范围内的检验值会导致 p > 0.05,反之亦然。当测试区间的下限或上限时,p = 0.05,正如 SPSS 快速确认的那样。

置信区间与统计显著性单样本 T 检验

那么,我们是否应该完全停止报告统计显著性,而支持置信区间?可能不会。置信区间不适用于非参数检验 (Nonparametric Tests),例如 ANOVA (方差分析)卡方独立性检验 (Chi-Square Independence Test)。如果我们比较 2 个平均值,则差异的单个置信区间说明了一切。但这不适用于比较 3 个或更多平均值…

公式与示例计算

SPSSStataSAS 等统计软件会为我们计算置信区间,因此无需费心考虑任何公式或计算。无论如何你想知道吗?那我们开始吧:我们在此 Googlesheet(可下载为 Excel)中计算了示例的置信区间,如下所示。

置信区间计算 Googlesheets

它是如何工作的呢?首先,我们的样本数据得出了如下所示的描述性统计信息。

置信区间描述性统计

我们估计平均值的标准误差为:

\[SE_{mean} = \frac{S}{\sqrt{N}}\]

因此,它将是:

\[SE_{mean} = \frac{$16,185}{\sqrt{100}} = $1,6185.\]

接下来,

\[T = \frac{M - \mu}{SE_{mean}}\]

这个公式试图告诉你,样本平均值 \(M\) 和总体平均值 \(\) 之间的差异除以 \(SE_{mean}\) 服从 t 分布。我们实际上只是将平均值差异标准化为 z 分数 (T)。

最后,我们需要由以下公式给出的自由度 (Degrees of Freedom, Df):

\[Df = N - 1\]

因此,它将是:

\[Df = 100 - 1 = 99.\]

那么,我们在哪些 t 值之间可以找到 95% 的所有(标准化)平均值差异?我们可以在 Google 表格 中查找此信息,如下所示。

反 T 分布 Google 表格

这告诉我们,所有 t 值的 0.025(或 2.5%)的比例 < -1.984。由于 t 分布是对称的,因此 t 值 > 1.984 的比例为 0.975。这些临界 t 值如下图所示。

临界 T 值 Df 99

该图示告诉我们,我们之前大约 ±2SE 的经验法则对于此示例为 ±1.984SE:95% 的所有标准化平均值差异介于 -1.984 和 1.984 之间。最后,95% 的置信区间是:

\[M - T_{0.975} \cdot SE_{mean} \lt \mu \lt M + T_{0.975} \cdot SE_{mean} \]

因此,它将是:

\[$28,841 - 1.984 \cdot $1,619 \lt \mu \lt $28,841 + 1.984 \cdot $1,619\]

这导致:

\[$25,630 \lt \mu \lt $32,052.\]

感谢阅读。